Can AI Match Human Experts? Evaluating LLM-Generated Feedback on Resident Scholarly Projects
Cette étude démontre qu'un modèle de langage open-weight (LLaMA-3.1) peut générer des commentaires formatifs sur les projets de recherche des résidents en médecine familiale avec une qualité se rapprochant de celle des experts humains, surpassant même ces derniers dans certains contextes spécifiques et les évaluations de sécurité.